智能论文笔记

Research on Stable Obstacle Avoidance Control Strategy for Tracked Intelligent Transportation Vehicles in Non-structural Environment Based on Deep Learning

Yitian Wang , Jun Lin , Liu Zhang , Tianhao Wang , Hao Xu , Guanyu Zhang , Yang Liu

分类：机器人

2022-07-30

现有的智能驾驶技术通常在平衡平稳驾驶和快速避免障碍物时存在问题，尤其是当车辆处于非结构环境中，并且在紧急情况下容易发生不稳定。因此，这项研究提出了一种自主障碍控制策略，该策略可以根据注意力驾驶的想法有效地基于注意力长期记忆（注意LSTM）深度学习模型来确保车辆稳定性。首先，我们设计了自动障碍避免控制规则，以确保无人车辆的安全。其次，我们改善了自动障碍避免控制策略，并结合了特殊车辆的稳定性分析。第三，我们通过实验构建了深度学习障碍物控制，该系统的平均相对误差为15％。最后，该控制策略的稳定性和准确性得到了数值和实验验证。这项研究中提出的方法可以确保无人车辆可以在平稳行驶时成功避免障碍。

translated by 谷歌翻译

Controllable Video Captioning with an Exemplar Sentence

Yitian Yuan , Lin Ma , Jingwen Wang , Wenwu Zhu

分类：计算机视觉 | 自然语言处理

2021-12-02

在本文中，我们调查了一种新颖挑战的任务，即具有示例句子的可控视频标题。正式地，给定视频和语法有效的示例句子，任务旨在生成一个不仅要描述视频的语义内容的一个标题，而且还遵循给定的示例句子的句法形式。为了解决基于示例的视频标题任务，我们提出了一种新的语法调制的标题生成器（SMCG），其结合在编码器 - 解码器 - 重构架构中。所提出的SMCG将视频语义表示作为输入，并且有条件地对给定示例句子的编码句法信息进行了可靠地调制长短期存储器网络的栅极和小区。因此，SMCG能够控制各种文字预测并实现语法自定义的标题生成。我们通过收集两个公共视频字幕数据集来进行辅助示例性句子进行实验。广泛的实验结果表明了我们对生成语法可控和语义保存视频字幕的方法的有效性。通过提供不同的示例性句子，我们的方法能够产生具有各种句法结构的不同标题，从而指示加强视频标题的分集的有希望的方式。

translated by 谷歌翻译

Contrastive Learning for Time Series on Dynamic Graphs

Yitian Zhang , Florence Regol , Antonios Valkanas , Mark Coates

分类：机器学习

2022-09-21

最近在无监督学习框架中为多元时间表制定代表性的努力。这种表示可以证明在活动识别，健康监测和异常检测等任务中有益。在本文中，我们考虑了一个设置，在该设置中，我们在动态图中观察到每个节点处的时间序列。我们提出了一个名为GraphTNC的框架，用于无监督的图表和时间序列的联合表示。我们的方法采用了对比度学习策略。基于一个假设，即时间序和图演进动力学是平滑的，我们确定了信号表现出近似平稳性的本地时间窗口。然后，我们训练一个编码，该编码允许在社区内分布非邻居信号的分布。我们首先使用合成数据证明了我们提出的框架的性能，随后我们证明它可以证明对使用现实世界数据集的分类任务有益。

translated by 谷歌翻译

Retinal Structure Detection in OCTA Image via Voting-based Multi-task Learning

Jinkui Hao , Ting Shen , Xueli Zhu , Yonghuai Liu , Ardhendu Behera , Dan Zhang , Bang Chen , Jiang Liu , Jiong Zhang , Yitian Zhao

分类：计算机视觉

2022-08-23

自动检测视网膜结构，例如视网膜血管（RV），凹起的血管区（FAZ）和视网膜血管连接（RVJ），对于了解眼睛的疾病和临床决策非常重要。在本文中，我们提出了一种新型的基于投票的自适应特征融合多任务网络（VAFF-NET），用于在光学相干性层析成像（OCTA）中对RV，FAZ和RVJ进行联合分割，检测和分类。提出了一个特定于任务的投票门模块，以适应并融合两个级别的特定任务的不同功能：来自单个编码器的不同空间位置的特征，以及来自多个编码器的功能。特别是，由于八八座图像中微脉管系统的复杂性使视网膜血管连接连接到分叉/跨越具有挑战性的任务的同时定位和分类，因此我们通过结合热图回归和网格分类来专门设计任务头。我们利用来自各种视网膜层的三个不同的\ textit {en face}血管造影，而不是遵循仅使用单个\ textit {en face}的现有方法。为了促进进一步的研究，已经发布了这些数据集的部分数据集，并已发布了公共访问：https：//github.com/imed-lab/vaff-net。

translated by 谷歌翻译

OCTAve: 2D en face Optical Coherence Tomography Angiography Vessel Segmentation in Weakly-Supervised Learning with Locality Augmentation

Amrest Chinkamol , Vetit Kanjaras , Phattarapong Sawangjai , Yitian Zhao , Thapanun Sudhawiyangkul , Chantana Chantrapornchai , Cuntai Guan , Theerawit Wilaiprasitporn

分类：计算机视觉 | 机器学习

2022-07-25

尽管使用深度学习技术从2D ENA中提取血管结构的研究越来越多，但对于这种方法，众所周知，曲线式结构上的数据注释过程（如视网膜脉管系统）非常昂贵且耗时，耗时，耗时，尽管很少有人试图解决注释问题。在这项工作中，我们提出了涂鸦基本弱监督学习方法的应用来自动化像素级注释。所提出的方法称为八度，使用涂鸦的地面真理与对抗性和新颖的自我监督深度监督相结合。我们的新型机制旨在利用来自类似于Unet的结构的歧视层的判别输出，在训练过程中，骨料判别输出和分割图谓词之间的kullback-liebler差异在训练过程中被最小化。如我们的实验所示，这种组合方法导致血管结构的定位更好。我们在大型公共数据集上验证了我们提出的方法，即Rose，Octa-500。将分割性能与最新的完全监督和基于涂鸦的弱监督方法进行了比较。实验中使用的工作的实施位于[链接]。

translated by 谷歌翻译

Sparse-based Domain Adaptation Network for OCTA Image Super-Resolution Reconstruction

Huaying Hao , Cong Xu , Dan Zhang , Qifeng Yan , Jiong Zhang , Yue Liu , Yitian Zhao

分类：计算机视觉

2022-07-25

具有高分辨率的视网膜光学相干断层扫描术（八八）对于视网膜脉管系统的定量和分析很重要。然而，八颗图像的分辨率与相同采样频率的视野成反比，这不利于临床医生分析较大的血管区域。在本文中，我们提出了一个新型的基于稀疏的域适应超分辨率网络（SASR），以重建现实的6x6 mm2/低分辨率/低分辨率（LR）八八粒图像，以重建高分辨率（HR）表示。更具体地说，我们首先对3x3 mm2/高分辨率（HR）图像进行简单降解，以获得合成的LR图像。然后，采用一种有效的注册方法在6x6 mm2图像中以其相应的3x3 mm2图像区域注册合成LR，以获得裁切的逼真的LR图像。然后，我们提出了一个多级超分辨率模型，用于对合成数据进行全面监督的重建，从而通过生成的对流策略指导现实的LR图像重建现实的LR图像，该策略允许合成和现实的LR图像可以在特征中统一。领域。最后，新型的稀疏边缘感知损失旨在动态优化容器边缘结构。在两个八八集中进行的广泛实验表明，我们的方法的性能优于最先进的超分辨率重建方法。此外，我们还研究了重建结果对视网膜结构分割的性能，这进一步验证了我们方法的有效性。

translated by 谷歌翻译

Structure-consistent Restoration Network for Cataract Fundus Image Enhancement

Heng Li , Haofeng Liu , Huazhu Fu , Hai Shu , Yitian Zhao , Xiaoling Luo , Yan Hu , Jiang Liu

分类：计算机视觉

2022-06-09

眼底摄影是诊断和监测眼部疾病的诊所的常规检查。但是，对于白内障患者，底眼图像始终会遭受由云晶状体引起的质量降解。降解阻止了眼科医生或计算机辅助系统可靠的诊断。为了提高临床诊断的确定性，已经提出了恢复算法来提高眼底图像的质量。不幸的是，这些算法的部署仍然存在挑战，例如收集足够的培训数据和保存视网膜结构。在本文中，为了规避严格的部署要求，从共享相同结构的合成数据中开发出了针对白内障底底图像的结构一致的恢复网络（SCR-NET）。白内障仿真模型首先是设计用于收集由白内障底面图像共享相同结构的合成性白内障集（SC）的。然后从SCS中提取高频组件（HFC）以约束结构一致性，从而强制执行SCR-NET中的结构保留。该实验证明了SCR-NET与最新方法和后续临床应用的比较中的有效性。该代码可从https://github.com/liamheng/arcnet-medical-image-enhancement获得。

translated by 谷歌翻译

Syntax Customized Video Captioning by Imitating Exemplar Sentences

Yitian Yuan , Lin Ma , Wenwu Zhu

分类：计算机视觉 | 自然语言处理

2021-12-02

增强描述视频内容的句子的多样性是近期视频字幕研究中出现的重要问题。在本文中，我们通过模仿示例句语法来自定义视频标题的小说视角来探讨此问题。具体地，给定视频和任何语法有效的示例句子，我们介绍了一个新的语法定制视频标题（SCVC）的任务，旨在生成一个字幕，不仅开始描述视频内容，而且还句法模仿给定的示例句子。为了解决SCVC任务，我们提出了一种新的视频标题模型，其中首先设计了分层句子语法编码器来提取示例句子的语法结构，然后设计了语法调节标题解码器以生成表达视频语义的语法结构标题。由于没有可用的语法定制地面视频字幕，我们通过提出新的培训策略来解决这种挑战，该策略利用传统的成对视频标题数据和我们所收集的示例性句子来完成模型学习。在语义，句法，流畅性和多样性评估方面进行了广泛的实验，清楚地展示了我们的模型能力，以生成与丰富的多样性很好地模仿不同示例性句子的语法变化和语义 - 相干的视频标题。

translated by 谷歌翻译

Spatial-context-aware deep neural network for multi-class image classification

Jialu Zhang , Qian Zhang , Jianfeng Ren , Yitian Zhao , Jiang Liu

分类：计算机视觉

2021-11-24

多标签图像分类是计算机愿景中的基本但具有挑战性的任务。在过去的几十年里，解决方案探索语义标签之间的关系取得了很大进展。然而，标签的潜在空间上下文信息被剥削。为了解决这个问题，提出了一种空间背景感知的深神经网络，以考虑语义和空间信息的考虑标签。在Microsoft Coco和Pascal VOC上评估了这一提议的框架，用于图像多标签的两个广泛使用的基准数据集。结果表明，该方法优于处理多标签图像分类问题的最先进解决方案。

translated by 谷歌翻译

BI-GCN: Boundary-Aware Input-Dependent Graph Convolution Network for Biomedical Image Segmentation

Yanda Meng , Hongrun Zhang , Dongxu Gao , Yitian Zhao , Xiaoyun Yang , Xuesheng Qian , Xiaowei Huang , Yalin Zheng

分类：计算机视觉 | 人工智能

2021-10-27

分割是图像处理的基本操作。卷积操作遭受有限的接收领域，而全球建模是对分段任务的基础。在本文中，我们将图形卷积应用于分割任务，并提出改进的\ Texit {Laplacian}。与现有方法不同，我们的\ Textit {Laplacian}是数据相关的，我们介绍了两个注意力对角线矩阵来学习更好的顶点关系。另外，在执行基于图形的信息传播时，它利用了区域和边界信息。具体地，我们通过学习图表表示的关于不同类的边界意识区域 - 明智相关的模型和原因，其能够操纵沿着物体边界的空间增强的各个区域的长距离语义推理。我们的模型非常适合获得全局语义区域信息，同时也可以同时容纳局部空间边界特征。两种挑战数据集的实验表明，我们的方法优于最先进的方法在结肠镜检查中的息肉中的息肉和光盘和光学杯中的光盘和光学杯在彩色眼底图像上的分割。

translated by 谷歌翻译